۱ حاصلی» داود؛ فهیم‌نیا فاطمه؛ نقشینه» نادر؛ عطاپور» هاشم؛ حسینی بهشتی» مل و کک السادات (۱۳۹۸). مرور 


نظام‌مند پژوهش‌های حوزه گسفزشن پرس‌وجو در ژبان فارسی. پژوهشنامه کتابداری واطلاع‌رسانی* ۰۱(۹ 
یه ۲۲۰-۲۱ 


سره میتی وروان سای 


مرور نظام‌مند پژوهش‌های حوزه گسترش پرس وجو در زبان فارسی 


داود حاصلی» فاطمه فهیم‌نیا: نادرنقشینه؛ هاشم عطاپور؛ ملو ک السادات حسینی بهشتی " 
تاریخ دریافت: ۱۳۹۷/۰۴/۱۶ تاریخ پذیرش: ۱۳۹۷/۰۵/۱۳ 3 1022067/2 :201 


چکیده 
مقدمه: یکی از عوامل عدم موفقیت در بازیابی اطلاعات ارائه نیاز اطلاعاتی کاربران در پرس‌وجوهای کوتاه و مبهم به نظام‌های 
طلاضای سیک گنیر کی برس ور بووین امبطاه تمارک عم یه پرس‌پوتوهای کازن انا رامی ای باق سا اودسشکا 
ست. هدف پژوهش حاضر مرور نظام‌مند متون پژوهشی گسترش پرس وجو در زبان فارسی است. 

روش شنا سی: فارسی و انگلیسی منابع اطلاعات علمی با کلیدواژه‌های مرتبط تعداد ۳۵ اثر به زبان فارسی و ۱۸ اثر به زبان 
نگلیسی شناسایی شد. سپس با اعمال پالایش اولیه» معیارهای ورود و خروج از مطالعه و کنترل توسط متخصصان, تعداد شش 


ثر فارسی و هشت اثر انگلیسی برای ورود به مرور نظام‌مند انتخاب شدند. با طراحی کاربرگیء استخراج اطلاعات از آثار 
صورت پذیرفت. در ادامه یافته‌های مرور نظام‌مند در پی دستیابی به چهار هدف پژوهش تحلیل شدند: شناسایی روش‌ها؛ 
شناسایی منابع دانشی؛ شناسایی مجموعه آزمون‌ها؛ و شناسایی شکاف‌های پژوهشی و ارائه پیشنهادهایی برای پژوهش‌های آینده 
ق کستز نی پرس‌وجوی زبان فارسی. 

بافته‌ها: مرور پژوهش‌ها نشان داد ۴ اثر به گسترش پرس‌وجوی زبان فارسی پرداخته‌اند. این آثار براساس منابع دانشی 
اصطلاحات گسترش به چهار دسته تقسیم شدند: مبتنی بر ربط (هشت اثر)؛ مبتنی بر ساختارهای دانش (دو اثر مبتنی بر 
اطلاعات وب (دو اثر)» و مبتنی بر منابع ت رکیبی (دو اثر). اغلب این پژوهش‌ها بر روی اسناد خبری انجام شده‌اند و از مجموعه 
آزمون روزنامه همشهری در نیمی از پژوهش‌ها به‌عنوان منبع دانشی اصطلاحات گسترش و نیز مجموعه آزمون استفاده شده 


است. 


۱. دانشجوی دکتری علم اطلاعات و دانش‌شناسی دانشگاه تهران» ۷0.۵6.1۲ ۵ 1اهعقطل 

۲ دانشیار گروه علم اطلاعات و دانش‌شناسی دانشگاه تهران (نویسنده مسئول) .۵۱026 دتصصطنطه1 
۳ دانشیار گروه علم اطلاعات و دانش‌شناسی دانشگاه تهران» ۵0۵6.1۳ 5۳ع2۵۵ 

۴ استادیار گروه علم اطلاعات و دانش‌شناسی دانشگاه تبریز 20112710.26.1۳) ۵) عنام مرمامحصعطعقط 


۵. استادیار گروه علم اطلاعات و دانش‌شناسی پژوهشگاه علوم و فناوری اطلاعات (ابراندا کک) » .۵100006.06 تاطوعطهه 


۲ پژوهشنامه کتابداری و اطلاع رسانی» دانشگاه فردوسی مشهد سال ٩‏ شماره ۱ بهار و تابستان ۱۳۹۸ 


فتیجه گیری: تحقیقات حوزه گسترش پرس‌وجو در زبان فارسی نیازمند توسعه کمی با استفاده از روش‌های متنوع و به‌ویژه 
روش‌های مبتنی بر منابع تر کیپی است. منابع دانشی مختلف به‌ویژه هستی‌شناسی‌ها و منابع وب می‌بایست برای گسترش پرس‌وجو 
در زبان فارسی مورد توجه و استفاده قرار گیرند. همچنین استفاده از مجموعه آزمون‌های استاندارد برای پژوهشگران این امکان 
فراهم می کند که بتوانند روش‌های مختلف را با هم مقایسه کنند. 


کلیدواژه‌ها: گسترش پرس وجو زبان فارسی» بازخورد ربط ساختارهای دانش, اطلاعات وب 


معد مه 

روزانه طیف وسیعی از افراد با نیازها و انگیزه‌های مختلف به جستجوی اطلاعات در نظام‌های 
باز یابی اطلاعات می‌پرداز ند. کاربران به‌منظور برقراری ارتباط با نظام های باز یابی اطلاعات. نیاز های 
اطلاعاتی‌شان را در قالب پرس‌وجوها فرمول‌بندی می‌نمایند (2007 م,عوعصت11 ۷۷ ک رعاتوظ ,صقطط). 
معمولاً خللاصه‌ای. از نباز اطلاعاتی کاریز تو سط پرس وجویی مشتمل بر مجموعه‌ای از کلمات کلیدی بیان 
می‌شود (شبان‌زاده حبیب آبادی» ۱۳۸۹). اغلب پرس و جوهای ارائه‌شده توسط کاربران کوتاه و مبهم هستند. 
نخستین مشکل پرس وجوهای کاربران در وب تعداد کم اصطلاحات پرس‌وجو است. پژوهش‌ها نشان 
می‌دهند کاربران تمایل به ارائه پرس‌وجوهای کوتاه دارند زیرا برای مشخص ساختن نبازهای اطلاعاتی 
خود با کمبود دانش موضوعی مواجه هستند» و طول یک پرس‌وجوی تحت وب بین ۲ تا ۳اصطلاح است 
(2005 رتم۷۷0۱ :2001 ۹2۳266۵70 لگ رحعوصهل رد۷۷۵1 راطنج6). ت عداد کم اصطلا حات 
پرس وجو باعث می شود | صطلاحات مهمی که تو صیفگر نیاز اطلاعاتی هستند» در پرس‌وجو ظاهر ذشوند 
(2001 .۵1 اه ,5۳[01) و معنی مناسب و کافی برای پرس‌وجوی مورد نظر فراهم نیاید. مشکل دیگر 
پرس وجوها ابهام اسست. برخی از عوامل ایجاد کننده ابهام در پرس وجوهای کاربران برای نظام‌های بازیابی 
عبارتند از: فرمول‌بندی ضعیف پرس وجو اصطلاحات مترادف و اصطلاحات دارای تعدد معانی» و عملکرد 
نادرست نظام (2013 ,2۳۵02). برای کاربران معمولی که قادر به بیان نیازهای اطلاعاتی در قالب یک 
پرس‌وجوی موثر نیستند» فرمول‌بندی ضعیف پرس‌وجو یک دایل ابتدائی برای پرس‌وجو های مبهم 
محسوب می‌شود (2004 ,50116 1127020). وجود اصطلاحات مترادف برای یککك مفهوم باعث 
می شود همه اسناد مرتبط با آن مفهوم بازیابی نشوند و بازیافت جستجو کاهش یابد. همچنین مشکل وجود 
اصطلاحات دارای تعدد معانی در پرس وجو. احتمال بازیایی اسناد نامر تبط با معناهای دیگر که مورد نظر 
کاربر نیستند را افزایش می‌دهد که این امر دقت نتایج بازیایی را کاهش می‌دهد (2013 ,2208). مو ضوع 
رایج دیگر در فرمول‌بندی پرس‌وجو استفاده از اصطلاحات اشتباه و غلط است. ممکن است کاربران 


سال ٩‏ شماره ۱ بهار و تاستان ۱۳۹۸ مرور نظام‌مند پژوهش‌های حوزه گسترش... ۲۰۳ 


| صطلاحات را از نظر املائی | شتباه بنوٍ سند یا به‌دلیل فقدان دانش مو ضوعی کافی | صطلاحات نامنا سب 
به کار ببرند (شبان‌زاده حبیب آبادی» ۱۳۸۹). 

یکی از رویکردهای رایج برای حل مشکل پرس‌وجوهای کوتاه و مبهم که از دهه ۱۹۶۰ میلادی 
تا کنون مورد | ستفاده قرار می گیرد گسترش پرس‌وجو ا ست. گسترش پرس‌وجو رویکردی پذیرفته شده 
است که به‌صورت گسترده مورد استفاده قرار می گیرد و پرس‌وجوهای کوتاه کاربران را با افزودن 
ا صطلاحات اضافی از بافت. تقویت می کند» همچنین با محدود ساختن معنی وا گان به‌و سیله | صطلاحات 
اضافه‌شده به پرس‌وجوء مشکل ابهام در زبان طبیعی را نیز حل می کند (2013 ,20208). از جمله عوامل 
موفقیت استفاده از گسترش پرس‌وجو در بازیابی اطلاعات؛ حل مشکل عدم تطابق واژگان موجود در 
پرس‌وجوی کاربر با واژگان موجود در مجموعه اسناد است (2005 ,0طزعطه:0116 ۷). 

برخی گسترش پرسوجو را اصلاح مجدد پرس‌وجوی کاربر با افزودن اصطلاحات اضافی و 
وزن‌دهی مجدد اصطلاحات پرس و جو توسط نظام می‌دانند ( ک ,011 ,ععا :2017 ,01 ک 12۷۲۵010 
8 ,۸112) برخی نیز تنها بر وزن‌دهی مجدد اصطلاحات پرس‌وجو تمرکز می کنند  (‏ ۳56006۲51 
6 ,10069 »6 5۵۵۵۲/۹08 :2008 ,01)). برخی نیز سه رویکرد در نظر شین گنه افزودن اصطلاحات؛ 
وزن‌دهی مجدد؛ و ت رکیبی از افزودن اصطلاحات اضافی و وزن‌دهی مجدد به آنها ( > ,۳67۵-۷265 
9 ,06170-000). روش‌ها» فنون و الگوریتم‌های مختلفی برای گسترش پرس‌وجوهای کاربران در 
نظام‌های بازیابی اطلاعات به کار رفته‌اند. فرایند گسترش پرس‌وجو به سه گروه د ستیء خود کار و تعاملی 
تقسیم می‌شود (2013 ,20208 :2008 ,۸0 010ع:۸0۵01). در گسترش پرس‌وجوی دستی کاربر بر 
پایه تجربه و دانش خود از حوزه موضوعی و مجموعه اسناد» اصسطلاحات گسترش را تعیین می کند 
(2007 مطاتصصگ عک ,مصمانه۷2۵۳ بلحعمطظ. رن پرس و جوی دستی برای متخصصان موضوعی و 
حرفه‌ای مناسب اسست. در فرایند گسترش پرس وجوی تعاملی؛ نظام مجموعه‌ای از اصسطلاحات بالقوه 
گسترش پرس‌وجو را شسناسایی و برای کاربر ارائه می‌کند و کاربر تصسمیم می گیرد چه اصسطلاح با 
اصطلاحاتی برای گسترش مناسب است. پیش‌فرض گسترش پرس‌وجوی تعاملی این است که افراد نسبت 


به ما شین بیشتر قادر به ضاوت ریط و مفید بودن | صطلاحات هستند و این روش اثربخشی را در کنش و 


مهم وتنام .1 
جمتمصومدظ منم لقتاجه]1۷ .2 
ممتصصهمظ منم عتامعتماط1 .3 


۴ پژوهشنامه کتابداری و اطلاع رسانی» دانشگاه فردوسی مشهد سال ٩‏ شماره ۱ بهار و تابستان ۱۳۹۸ 


عمل نشان می‌دهد (2019 ,166021 6 ۸2۵0). در ری پرس‌وجوی خود کار؛ نظام به صورت خود کار 
و بدون هیچ مداخله‌ای از کاربر اصطلاحات گسترش را انتخاب می کند و پرس‌وجو را برای کاربر 
فرمول‌بندی مجدد می‌نماید. گسترش اصطلاحات می‌تواند نتیجه منابع متتوعی باشد» شامل مجموعه‌های 
متنی» فرهنگ‌هاء و پایه‌های دانش. 

روش‌ها و الگوریتم‌های گسترش پرس وجو در زبان‌های مختلف پیاده سازی و مورد استفاده قرار 
گرفتهاند. بررسی متون منتشرشده نشان می‌دهد چندین روش و الگوریتم گسترش پرس‌وجو در زبان فارسی 
انجام شده است. زبان فارسی که از شاخه زبان‌های هند و اروپایی به‌ شمار می‌رود یکی از زبان‌های مهم در 
آسیا است. در کشورهای ایران و تاجیکستان» فارسی زبان رسمی بوده و در کشور افغانستان در کنار زبان 
پشتو» یکی از دو زبان ر سمی است. همچنین زبان فار سیء زبان ر سمی ک5شور هندو ستان تا پیش از ورود 
استعمار انگلیس بوده است. امروزه حجم زیادی از تولیدات علمی و صفحات وب به زبان فارسی تولید 
می‌شود. نمایه نزدیک به یکک میلیون مقاله مجلات فارسی در پایگاه مرکز منطقه‌ای اطلاع‌رسانی علوم و 
فناوری) نمایه حدود ۷۵۰,۰۰۰ مقاله کنفرانسی در پایگاه سیویلیکا) و نمایه ۶۰۰,۰۰۰ پایان‌نامه در پایگاه 
گنج ایراندا ک تمونه‌هایی از مدار کک علمی تولید شده به زبان فار سی در محبط وب هستند. همچنین برای 
سازماندهی و بازیابی این اطلاعات در وب فارسی. پژوهش های زیادی در حوزه بازیابی اطلاعات و 
پردازش زبان طبیعی در زبان فارسی صورت گرفته و یا در حال انجام است. 

بررسی متون منتشر شده نشان می‌دهد با توجه به حجم تحقیقات انجام شده در خصوص گسترش 
پرس وجو در زبان‌های مختلف (مانند زبان انگلیسیء چینی و فرانسه» پژوهش‌های اند کی بر روی گسترش 
زبان فارسی انجام‌شده است. علاوه بر این تصویری جامع از اند ک پژوهش‌های انجام شده» روش‌های 
به کار رفته و منابع مورد استفاده در آنها وجود ندارد. بر این اساس. پژوهش حاضر به مرور نظام‌مند 
تحقیقات گسترش پرس‌وجو در زبان فارسی می‌پردازد. در اين مقاله؛ با طبقه‌بندی پژوهش‌های صورت 
گرفته در گسترش پرس وجو از نظر منابع دانشی اصطلاحات گسترش از ارائه مشخصات صرفاً فنی اجتناب 
شده است؛ زیرا بهبود روش‌ها و الگوریتم‌های گسترش پرس‌وجو بدون در نظر گرفتن منابع گسترش 
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سال 4٩‏ شماره ۱ بهار و تاستان ۱۳۹۸ مرور نظام‌مند پژوهش‌های حوزه گسترش... ۲۰۵ 


حوزه گسترش پرس‌وجو در زبان فار سی را از لحاظ | ستفاده از منابع» روش‌هاء فنون» مجموعه آزمون و ... 
به تصوير بکشد و با تر کیب مطالعات پیشین و بررسی کارهای انجام شده خلاهای پژوهشی در اين حوزه را 
به پژوهشگران عرضه نماید. اين پژوهش می‌تواند نقطه عزیمت مهمی برای پژوهش‌گران حوزه علم 
اطلاعات و دانش‌شناسی به‌منظور توسعه شناختی روش‌های گسترش پرس‌وجو و ایجاد منابع دانشی مختلف 
برای تأمین اصطلاحات گسترش پرس‌وجو و نیز ساخت مجموعه آزمون‌هایی برای ارزیابی نظام‌های بازیابی 
اطلاعات در زبان فارسی باشد. 

پژوهش مروری نظام‌مند حاضر در پی تحقق چهار هدف ذیل در حوزه تحقیقات گسترش 
پرس‌وجوی زبان فارسی است: ۱) شناسایی روش‌ها و الگوریتم‌های استفاده شده؟ ۲) شناسایی منابع دانشی 
اصطلاحات گسترش؛ ۳) شناسایی مجموعه آزمون‌های استفاده شده برای گسترش پرس‌وجو؛ و ۴) 


شناسایی شکاف‌های پژوهشی و ارائه پیشنهادهایی برای پژوهش‌های آینده. 


روش‌شناسی 

پژوهش حاضر با استفاده از روش مرور نظام‌مند انجام‌شده است. در مرور نظام‌مند با شناسایی 
دقیق» منظم و برنامه‌ریزی‌شده تمام مطالعات مرتبط» می‌توان نقد عینی‌تری انجام داد و به مشکلات مربوط 
به مرورهای دیگر مانند مرور نقلی فاثق آمد (ملبوس‌باف و عزیزی» ۱۳۸۹). در این پژوهش تمامی مقالات 
مندشر شده مرتبط با گسترش پرس‌وجوی زبان فار سی مورد برر سی قرار گرفته است. در پژوهش حاضر 
جهت اطمینان از کامل بودن و ثبات در مرور نظام‌مند پژوهش‌هاء از راهنمای ارائه شده توسط آکلی و شابرم 
(2010 ,هدک ک ز[010) استفاده شده اسست. اين راهنما برای اطمینان از دقت زیاد در انجام 
روش‌شناسی در زمان انجام یک مرور نظام‌مند طراحی شده است. براساس این راهنما مرور نظام‌مند پژوهش 
حاضر در شش گام (جدول ۱) طراحی شد. در ادامه شش گام اجرایی مرور نظام‌مند توضیح داده شده 
است. 
۱. شناسایی نیاز به مرور پژوهش‌ها: بررسی متون نشان داد هیچ پژوهشی در خصوص مرور پژوهش‌ها 
در زمینه گسترش پرس وجو در زبان فار سی انجام نشده است. این در حالی ااست که در زبان انگلٍ سی و 
زبان‌های دیگر پژوهش‌های مختلفی با استفاده از روش مرور نظام‌مند» نه‌تنها برای حوزه کلی گسترش 


پرس‌وجو بلکه برای زیر حوزه‌های جزئی آن صورت گرفته است. 
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۲. تدوین اهداف مرور نظام‌مند: با انتشار پژوهش‌های گسترش پرس‌وجوی زبان فارسی در چند سال 
اخیر» لازم است روش‌هاء منابع دانشی و مجموعه آزمون‌های استفاده‌شده برای آن شناسایی شود و خلٌهای 
پژوهشی آن مشخص گردد. 

۳ جستجو در منابع: جستجوی اینترنتی در پایگاه‌های داخلی شامل مقالات کنفرانس‌ها و همایش‌ها؛ 
جویشگر علم‌نت! بانک نشریات کشور/ پایگاه اطلاعات علمی جهاد دانشگاهی؛ و پایگاه پژوهشگاه 
علوم و فناوری اطلاعات؛ به منظور یافتن منابع فارسی صورت گرفت. همچنین بررسی منابع و ماخذ آثار 
نیز در دستیابی به برخحی از منابع راهگشا بود. برای جستجو در منابع فارسی از کلیدواژه‌های «گسترش»» 
«دسط «پرس و جوا «جستجوا» و «پر سش) با ترکیب‌های منا سب و با نگارش‌های املائی متفاوت | ستفاده 
شد. در مورد مقالات انگلیسی نیز پایگاه‌های خارجی ساینس‌دایر کت و موتور کاوش علمی گوگل 
اسسکالر با ردگیری آثار استناد کننده و نیز منابع و ما خذ آثار مورد بررسی قرار گرفتند. کلیدواژه‌های 
استفاده شده برای جستجو در زبان انگلیسی شامل «طمتفصدمدظ حعتام0» «صقلوتع۱۴۳ و «51ت۳۵) بودند. در 
این گام ۳۵ اثر از پایگاه‌های فارسی و ۱۸ اثر به از پایگاه‌های خارجی به زبان انگلیسی بازیابی شد. 
گزینش منابع مرور: در پالایش اولیه ۲۱ اثر به زبان فار سی و ۱۸ اثر به زبان انگلی سی گزینش شدند. 
محدودیت زمانی برای پژوهش در نظر گرفته نشده است. معیار ورود به مطالعه برای آثار» عبارتند بودند از: 
0 گسترش پرس وجو در زبان فارسی و ۲) اعمال الگوریتم‌های گسترش پرس‌وجو و بهبود بازیابی. معیار 
خروج از مطالعه نیز شامل حذف قالب‌های تکراری یک اثر (مانند انتشار یک عنوان در قالب پایان‌نامهه 
مقاله مجله یا مقاله کنفرانس) بود. از ۲۱ اثر به زبان فار سیء تنها هفت اثر در خصوص اعمال الگوریتم‌های 
گسترش پرس‌وجو در زبان فارسی بود» ۱۲ پژوهش به گسترش پرس‌وجوی زبان انگلیسی پرداخته بودند و 
دو اثر با استفاده از روش پیمایش و به‌صورت نظرسنجی انجام شده بود که از مطالعه کنار گذاشته شدند. از 
۸ اثر انگلیسی. هشت اثر مرتبط با گسترش پرس‌وجو در زبان فارسی تشخیص داده شدند. در مجموع 


هفت اثر به زبان فار سی و هشت اثر به زبان انگلیسی برای برر سی مرتبط شناخته شدند. آثار انتخاب شده 
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تو سط یک نفر متخصص و صاحب‌نظر کنترل و برر سی شد. یک اثر به‌دلیل تشابه کامل با یک اثر دیگر 

توسط متخصص کنار گذاشته شد. در مجموع ۴ اثر برای مرور نظامند انتخاب شدند. 

۵ استخراج اطلاعات آثار: کاربرگی جهت استخراج اطلاعات بر اساس اهداف پژوهش از آثار؛ 

طراحی و تهیه شد که در آن تعیین شده بود چه اطلاعاتی از کل اثر باید استخراج شود. 

1 تجزیه و تحلیل و ارائه یافته‌ها: در گام نهایی نیز تجزیه و تحلیل و ارائه یافته‌های پژوهش انجام شد 

که حاصل کل مرور نظام‌مند است. جدول ۱ گام‌های مرور نظام‌مند پژوهش حاضر را نشان می‌دهد. 
جدول ۱. مراحل مرور نظام‌مند 


۳ 0 ۳ تعداد مقالات باقیمانده 
گام فرایند مرور نظام‌مند ۹ اتگلسی 
گام ۱ شناسایی نیاز به مرور پژوهش‌ها ِ چ 
گام ۲ تدوین اهداف مرور نظام‌مند ۳ ۳ 
گام ۳ جستجو در منابع [الکترونیکی فارسی و انگلیسی] ۳۵ ۸ 

پالایش اولیه آثار ۳۱ ۲ 
گام ۴ اعمال معیارهای ورود و خروج از مرور نظام‌مند ۷ ۸ 

کنترل و بررسی آثار انتخاب‌شده توسط متخصص و صاحب‌نظر ۶ ۸ 
گام ۵ استخراج اطلاعات آثار ۶ ۸ 
گام ۶ تجزیه و تحلیل و ارائه یافته‌ها ۶۶ ۸ 

بافته‌ها 


زبان و قالب انةشار تحقیقات: در نهایت شش اثر به زبان فار سی و هشت اثر به زبان انگلیسی وارد مرور 
نظام‌مند شدند. از این تعداد قالب شش اثر مقاله نشریه» پنج اثر مقاله کنفرانسی و سه اثر پایان‌نامه کارشناسی 


ار ود (عایلن ۲ 
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جدول ۲. زبان و قالب آثار مورد بررسی 


قالب آثار 
مقاله نشریه | مقاله کنفرانسی | پایان‌نامه 
فارستی ۲۴/۳ ۱۳/۱۱ (۳۲۱/۴ | (۶)۴۲۸/۹ 
زبان آثار > 
انگلیشی (۲۸/۶) ۴ (۲۸/۶) ۴ ۱ (۵۷//۱) ۸ 
کل (۴۲//۹) ۶ ۳۵/۸۷ ۵ (۲۱//۴) ۳ ۴ 


روش‌ها و رویکردهای گسترش پرس‌وجو در زبان فارسی: در مرور نظام‌مند حاضر روش‌های گسترش 
پرس وجو در زبان فارسی براساس نوع منبع اصطلاحات گسترش به چهار نوع د سته‌بندی شده‌اند: مبتنی بر 
ربط (هشت اثر) مبتنی بر ساختارهای دانش (دو اثر)؛ مبتنی بر اطلاعات وب (دو اثر)؛ و مبتنی بر منابع 
تر کیبی (دو اثر). 

کسترش پرس وجو مبتنی بر ربط: اين نوع گسترش پرس‌وجو به دو نوع بازخورد ربط و بازخورد شبه 
ربط صورت می‌گیرد. بازخورد ربطء فرایند جستجو را به‌عنوان یک عملیات تعاملی در نظر می گیرد و 
اسنادی را که کاربران مرتبط تشخیص می‌دهند برای گسترش پرس وجوها انتخاب می کند ( 6 ۸2۵0 
9 ,100216). در رویکرد بازخورد شبه ربط اسناد با رتبه بالا در فهرست نتایج پرس‌وجوی اولیه 
به‌عنوان اسناد مرتبط شناخته می‌شوند. زمانی که بازخورد ربط کاربر در دسترس نباشد این رویکرد که 
به‌عنوان بازخورد کور نیز شناخته می‌شود؛ مورد استفاده قرار میگیرد. بسیاری از نظام‌های بازیابی اطلاعات 
از این رویکرد برای گسترش پرسوجو بهره می‌برند (2017 ,1۷104 تک ۸0۷۵ سه الگوریتم گسترش 
پرس‌وجو مبتنی بر ربط وجود دارد: رو کیو؛ احتمالاتی؛ و تحلیل بافت محلی. الگوریتم رو کیو براساس 
مدل فضای برداری است (1975 ,۷۵۵ > ,۷۷۵۵۵ ,821600) و هدف آن انتقال بردار پرس‌وجوی 
گس ترش یافته به نزدیک میانگین بردار اسسناد مرتبط و دور کردن از میانگین اسسناد غیرمرتبط اسست 
(1971 ,000010). الگوریتم احتمالاتی» با | ستفاده از وزن‌های | صطلاح برا ساس رخدادهای | صطلاح در 
اسناد مرتبط و اسناد نامرتبط محاسبه می‌شود و یک سند را به وسیله احتمال ربط سند با پرس‌وجو رتبه‌بندی 
می کند (1976 ,10065 6 8006/502). در تحلیل بافت محلی فرض این است که یک سند طولانی ممکن 


است چندین موضوع را پوشش دهد و تنها یک موضوع آن سند مورد نظر کاربر باشد. بنابراین محتواهایی 
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با هم رخدادی متوالی در فاصله نزدیک با اصسطلاحات پرسوجو منابع قابل اعتماد برای اصسطلاحات 
پرس وجو هستند زیرا اصطلاحات موجود در بافت‌های مشابه» اغلب دارای معانی مشابه هستند ( صتعاطنع۸ 
5 ,06۲2۵0 ). در اسناد فارسی یک اثر با رویکرد بازخورد و هفت اثر با رویکرد باز خورد شبه ربط 
انجام شده است. 
باز خوره ربط: در زبان فارسی یک اثر با استفاده از رویکرد بازخورد ربط و استفاده از مجموعه آزمون 
حوزه حقوق انجام شده است. صبوری» بشیری و ارومچیان (2008 مطهتطءصتمن ک تتتطعدظ بتدهمطع8) 
با استفاده از بازخورد ربط به تعیین تأثیر مدل ر و کیو در وزن‌دهی مجدد پرس وجو برای بازیابی اسناد فارسی 
پرداختند. آزمایش آنها در مجموعه آزمون قوانین با موفقیت همراه بود. 
باز خورد شبه ربط: تاکنون بیشترین آثار (هفت اثر) با استفاده از این رویکرد به گسترش پرس‌وجو در زبان 
فارسی پرداخته‌اند. در این هفت اثر از مجموعه آزمون همشهری به‌عنوان منبع دانشی اصطلاحات گسترش 
و نیز مجموعه آزمون استفاده شده است. مجموعه همشهری پیکره‌ای است حاوی ۳۱۸ هزار سند مربوط به 
اخبار مسال‌های ۱۳۷۵ ا ۱۳۸۶ که با خزش وب‌سایت همشهرق و چندین مرحله پیش‌پردازش و 
برچسب گذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب هستند که نشان می‌دهد 
هر سند در چه رده‌ای (اقتصادی. سیاسی و..) است ( > ,5۵802۵7 ,نهد ,تنم رمصطفها۸ 
9 (0۳0۱99۱60120). 

دولامیک و ساوّی (2009 ,۹270 ک عتصفامط) اکن پرس وجو مبتنی بر روش بازخورد 
شبه ربط و مدل رو کیو برای گسترش پرس‌وجو استفاده نمودند. آزمايش آنها بر روی مجموعه آزمون 
هم‌شهری و بخش فار سی مجموعه | سناد کلف با مدل‌های مختلف بازیابی اطلاعات (0۳7۳ آکاپی و مدل 
زبانی). استراتژی‌های نمایه سازی (۱ صطلاح با ریشه‌یایی و بدون ریشه‌یابی و ۵ گرم)؛ راهبردهای گسترش 
پرس‌وجو (ر وکیو بر پایه معکوس فراوانی | سناد یا بدون گسترش) و شکل‌دهی پرس‌وجو (پرس‌وجوهای 
کوتاه متوسط و طولانی) انجام شد. آنها نشان دادند شکل‌دهی پرس‌وجو با حذف تمام پسوندها و 
پیشوندهای واژه‌های زبان فارسی و نیز پرس‌وجوهای طولانی که از ۱۰ سند مرتبط ۲۰ اصطلاح گسترش به 
پرس وجو اضافه می کند» بازیابی بهبود می‌دهد. 

دو پژوهش با استفاده از رویکرد بازخورد شبه ربط و مدل احتمالاتی در زبان فارسی انجام شده 
ست. کریسانی» هکل و ارومچیان (2016 ,صمنط‌ت0:0 ک 02۵۲عط۵ ,نصهوزهک1) یک روش ساده و 
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در عین حال کاربردی از روش با زخورد شبه ربط به‌منظور شناسایی اصطلاحات مهم و دارای بار اطلاعاتی 
بشتر در پرس‌وجو و وزن‌دهی مجدد به آنها با | ستفاده از شباهت | سناد (الگوریتم احتمالاتی) ارائه دادند. 
یافته‌ها در مجموعه‌های آزمون استاندارد فارسی همشهری ۱ و همشهری ۲ و بخش فارسی مجموعه آزمون 
انگلیسی فایر موفقیت این رویکرد را نشان داد. هاشمی و شاکری (2014 ,۹00 عک نصعطهه) 
به‌منظور ساخت مدل گسترش پرس‌وجو برای هر پرس‌وجو ۱۰ سند بازیابی شده با رتبه بالا در مجموعه 
آزمون همشهری و اخبار بی‌بی سی را برای افزودن ۰ ۰ اصطلاح مورد استفاده قرار دادند. بافته‌ها نشان داد 
گسترش پرس‌وجو بر اساس اصطلاحات مرتبط مویُر بوده است. 

چهار پژوهش با استفاده از رویکرد بازخورد شبه ربط و تحلیل بافت محلی انجام شده اسست. 
آل‌احمد» حکیمیان» مهدی‌خانی و ارومچیان ( ,صفنط‌صنمن0 ک تممطن۱۵۴۵ ,صمتصن۲ ,لحمصطدءا۸۵ 
7 به ارزیایی مدل فضای برداری مبتنی بر اصطلاح و ان گرم و روش گسترش پرس‌وجوی باز خورد 
شبه ربط با استفاده از طرح‌های وزن‌دهی مختلف پرداختند. آنها تعداد ۱۰ اصطلاح نخست رتبه‌بندی شده 
از ۲۰ نتیجه اول بازیابی‌شده از مجموعه آزمون همشهری را به هر پرس وجو اضافه نمودند. یافته‌های آزمون 
نشان داد گسترش پرس وجو با استفاده از روش تحلیل بافت محلی موثر بوده است و گسترش پرس‌وجوی 
زبان فارسی با ۴ گرم نتایج بهتری در بردارد. حکیمیان و تقی‌باره (2007 ,طهت۵«نطع1۵ ک صمنصتاه) 
مجموعه همشهری را برای تطبیق سه پارامتر ۱) تعداد مفاهیم برای گسترش پرس‌وجو (۱۰ الی ۳۰ مفهوم)؛ 
۲) تعداد اسناد بازیایی‌شده اولیه برای باز خورد محلی (۳۰الی ۱۰۰ سند)؛ و ۳) تعداد اصطلاحات برای 
کشف مفاهیم و وزن‌دهی برای گسترش پرس وجو مورد استفاده قرار دادند. آنها نشان دادند زمانی که ۲۰ 
مفهوم برای گسترش پرس وجو مورد استفاده قرار می گیرد نقطه بهینه محسوب می‌شود با این حال» افزایش 
دو پارامتر دیگر نیز در اکثر موارد نتتایج را بهبود می‌دهد. حکیمیان و تقی‌باره ( 6 طهنصته11 
56 ,1۵2۳0[72760) در را ستای پژوهش پیشین. تعداد مفاهیم را تا ۶۰ مفهوم افزایش دادند. یافته‌های آنها 
نشان داد افزایش مفاهیم گسترش به ۵ ۳۰ ۳۵ ۵۰ مفهوم باعث بهبود عملکرد بازیابی نمی‌شود اما 
افزایش مفاهیم به ۴۰ و ۴۵ مفهوم باعث بهبود عملکرد بازیابی موثر می‌شود. خالقی و مینایی (۱۳۹۴) با 
استفاده از برر سی هم رخدادی ااصطلاحات در پار گراف‌ها؛ اقدام به ساخت مجموعه‌های هم رخدادی برای 
هر اصسطلاح نموده و از آن‌ها برای گسترش پرس‌وجو با رویکرد تحلیل بافت محلی استفاده کردند. 


جمتماه ۱۲ همم ممتامصصتمکم؟ عم ت۴۵ [ 
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یافته‌های آزمایش‌ها در مجموعه آزمون هم‌شهری (۱۳۸۶-۱۳۷۵) ذشان داد چارچوب پيشنهاد شده بازیابی 
را بهبود می‌دهد. 
کسترش پرس‌وجو مبتنی بر ساختارهای دانش: در این روش اصطلاحات گسترش از ساختارهای 
دانش و با استفاده از دو رویکرد وابسته به پیکره و مستقل از پیکره استخراج می‌شود. رویکرد وابسته به 
پیکره» اصطلاحات را از مجموعه‌های متنوعی مانند خوشه‌بندی اصطلاحات و اصلاحنامه‌های خود کار 
مستخرج از متن تأمین می کند (2017 ,۷۲۵0۵ 4 ۸۱۷۵0). رویکرد مستقل از پیکره از منابع خارجی 
همچون واژه‌نامه‌ها؛ ا صطلاحنامه‌های عمومی اصطلاحنامه‌های حوزه‌های خاص و هستی شناسی‌ها استفاده 
می‌کند (1996 ,۳1110415 وردنت عمومی زبان فار سی که فارس‌نت نام دار نخستین شبکه واژگان 
با هستی‌شناسی زبان فارسی و پایگاه دانشی است که حاوی اطلاعات در مورد واژه‌ها و تر کیبات زبان 
(مفاهیم)» اطلاعات نحوی آنها و روابط معنایی میان آنهاست (2010 .21 اه ,ت9اعصنهط6). 

گسترش پرس‌وجو در زبان فارسی با استفاده از ساختارهای وابسته به پیکره انجام نشده است. دو 
پژوهش با وردنت فارسی و واژه‌نامه صورت گرفته است که جزو ساختارهای مستقل از پیکره هستند. 
ساعدی (۱۳۹۰) به گسترش پرس وجو با استفاده از روابط موجود در بین مفاهیم هستی‌شناسی عمومی 
فارسی‌نت اقدام نمود. وی هر پرس وجو را با یک تا چهار اصطلاح از هستی‌شناسی فارسی‌نت گسترش داده 
است. بهترین عملکرد و افزایش دقت با افزودن سه اصطلاح به پرس‌وجوی اولیه به‌دست آمده است. 
دیانت» علی‌احمدی, اخلاقی باباعلی (۱۳۹۵) از گسترش پرس‌وجو به‌عنوان پیش‌پردازشی برای بهبود 
بازیابی اطلاعات حاصل از بازشناسی گفتار استفاده نمودند. آنها با استفاده از یک روش بازیابی برداری در 
مجموعه آزمون داد گان فارس‌دات بزرگ. موفقیت گسترش پرس‌وجو را در بهبود باز شنا سی گفتار نشان 
دادند. 
گسترش پرسوجو مبتنی بر اطلاعات وب: این رویکرد از اسناد وب. پایگاه‌های آنلاین دانش (مانند 
ویکی‌پدیا) یا لااگ پرس وجوها به‌عنوان منبع | صطلاحات گسترش | ستفاده می کند. انگیزه برای | ستفاده از 
اطلاعات وب برای گسترش پرس وجوء غنی‌ساختن مجموعه با استفاده از اطلاعات خارجی است. اطلاعات 
خارجی پویا و نشان‌دهنده دید گاه عموم هستند (2013 ,21808). ویکیپدیا بزرگ‌ترین دانشنامه وب 


چندزبانه است که به‌عنوان یکک منبع اطلاعات ساختاریافته منشأً تولید بسیاری از ابزارهای بازیابی اطلاعات 


1. ۲ 
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و پردازش زبان طبیعی مانند هستی‌شناسی‌های دی‌بی پدیا؛ یاگو و ۷۷۲۴ است ( ,00 ,11681 
7 ,راکق2ض1 > ,صهواع1 ,271ع۷165). همچنین لاگک‌های پرس وجوی تولیدشده توسط موتورهای 
کاوش وب. تعاملات کاربران را شامل تجربه‌های آنها در فرمول‌بندی مجدد پرس وجوها و میزان دستیابی 
به نتایج مطلوب در قالب نشست‌های پرس وجو ثبت می کنند (2019 ,۲66021 6 ۸220). در زبان فار سی؛ 
در دو اثر روابط معنایی ویکی‌پدیا و لاگ‌های پرس‌وجوی موتور کاوش گ وگل برای گسترش پرس‌وجو 
مورد استفاده قرار گرفته‌اند. 

پایگاه های دانش آنلاین: فرهودی» محمودی, زارع‌بید کی» پاری و آزادنیا ( ,ن4امط۷2 ,۳۵008 
9 ,۸2۵00۵ ک ید۷ ,ذام0ظ عت2۵) با استفاده از روابط معنایی مفاهیم موجود در ویکی‌پدیا و ساختار 
اسناد موجود در آنکه براساس گراف موضوعی است یک هستی‌شناسی فارسی ایجاد کردند. آنها با استفاده 
از هستی شنا سی و روابط میان مفاهیم» | صطلاحات گسترش را وزن‌دهی کردند و به موتور کاوش گوگل 
ار سال کردند. سپس ۲۰ نتیجه نخست رابا کمک کاربران متخصص حوزه رایانه مورد ضاوت ربط قرار 
داد ند. یافته‌ها حاکی از افزایش میزان دقت نتایج باز یابی‌شده پرس‌وجوی گسترش يافته با کمک 
هی شناسی بود. 

لا کك پرس‌وجوها: سروی فتاحی» پربرخ و دیانی (۱۳۹۲) با | ستفاده از پرس‌وجوهای ثبت شده پر شین 
کاربران (لاگ پرس‌وجو) که در کلیدواژه‌ها و پيشنهادات موتور کاوش گوگل نمایان می‌شونده اقدام به 
گسترش پرسوجو نمودند. یافته‌های پژوهش آنهاء افزایش میزان ربط نتایج بازیافتی را گزارش می کند. در 
این رویکرد علاوه بر اصطلاحات از عبارت‌ها نیز برای گسترش پرس وجو استفاده شده است. 

گسترش پرس‌وجو با استفاده از منابع ت رکیبی: روش‌های ترکیبی در گسترش پرس‌وجو دو یا چند 
روش را برای ایجاد روشی موئرتر ادغام می‌کنند تا از این طریق بر نقاط ضعف روش‌های گسترش 
پرس‌وجوی خود کار غلبه نمایند. ویژگی‌های پرس‌وجو شامل اندازه پرس‌وجی طول | صطلاحات. م‌سائل 
لغوی؛ ابهام» دشواری و هدف آن باعث می‌شود نیاز به روش خاصی برای گسترش هر یک از این ویژگی‌ها 
با شد (2017 ,۷۲00 »6 ۸۵0). کریسانی (۱۳۹۰) شکیل | صطلاحات اولیه گسترش از نقش و قابلیت 
شبکه معنایی (روش مبتنی بر ساختار دانش- مستقل از پیکره) و برای وزن‌دهی به آنها از مجموعه اسنادی 


که حاصل از بازخورد ربط (روش مبتنی بر ربط) هستند» استفاده نموده است. گسترش پرس‌وجو از طریق 


1. 2 
2. 0۵ 
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ترجمه کلمات به الگلیشتی و گسترش آنها با استفاده از وزدنت ایگلیستن و ترجمه دوباره کلمات 
گسترش يافته به فار سی انجام شده است. عبدالحسینی (۱۳۹۲) با اعمال پرس‌وجوی اولیه و بازیابی اسناد با 
رتبه بالا یک گراف ارتباط مفهومی با استفاده از روش‌های آماری مفاهیم اصلی اسناد و ارتباط میان آن‌ها 
ایجاد نمود. با استفاده از گراف مذ کور (روش مبتنی بر اطلاعات وب- اسناد وب) و هستی‌شناسی فارس‌نت 
(روش مبتنی بر ساختار دانش- مستقل از پیکره)» گروه‌بندی معنایی اصسطلاحات صورت گرفت و 
اصطلاحات گسترش استخراج شدند. وی برای انتخاب اصطلاحات پرس وجوء در گراف با استفاده از 
محاسبات آماری وزنی و در هستی‌شناسی از الگوریتم ژنتیک با روش ترکیبی هم‌رخدادی و روش‌های 
مبتنی بر بسامد واژه استفاده نموده است. در این پژوهش پرس‌وجوهای مجموعه داد گان همشهری مورد 
استفاده قرار گرفته و یافته‌ها نشان می‌دهد میانگین متوسط دقت برای روش گراف نتایج بهتری نسبت به 
هستی‌شناسی دارد. 

جدول ۳ منابع دانشی اصطلاحات پرس‌ وجو مجموعه آزمون و نوع قضاوت ربط را نشان می‌دهد. 
حدود نیمی از پژوهش‌های گسترش پرس وجو در زبان فار سی از مجموعه روزنامه هم‌شهری به‌عنوان منبع 
دانشی اصطلاحات گسترش و همچنین مجموعه آزمون استفاده نمودند. همچنین برخی از مجموعه 
آزمون‌های خارجی همچون کلف. فایر و اخبار بی‌بی‌سی دارای اسناد و پرس‌وجوهای فارسی استاندارد 
هستند که برای وظایف بازیابی اطلاعات و پردازش زبان طبیعی در زبان فارسی مورد استفاده قرار می‌گيرند. 
مجموعه آزمون‌های قوانین در حوزه حقوق است و قوانین ایران را شامل می شود. یکی از پژوهش‌ها نیز از 
پرس‌وجوهای حوزه رایانه بهره برده است. 

ضاوت ربط در پژوهش‌هایی که از مجموعه آزمون‌های | ستاندارد استفاده نموده‌اند با ا ستفاده از 
قضاوت ربط انبوهه آنجام شده است و سه مورد از پژوهش‌ها که از نتایج بازیایی اسسناد وب به‌عنوان 
مجموعه آزمون استفاده نمودند از قضاوت ربط انسانی کمک گرفته‌اند. 

در همه این پژوهش‌ها بهبود عملکرد بازیایی گزارش شده است. اما از آنجایی که از مجموعه 
آزمون‌های مختلف و نیز از معیارهای متفاوت برای سنجش عملکرد ربط استفاده شده است امکان مقایسه 


افته‌ها با یکدیگر وجود ندارد. 
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جدول ۳. منابع دانشی اصطلاحات گسترش و مجموعه آزمون و نوع قضاوت ربط 


نویسنده (ها) 


5290001 6] 21., )2008( 


[10127016 46 07 
)2009( 


161152 6 21. 
)2016( 


7۲ 6 تصمطوع۲۱ 
(2014) 


.81 6 ۵16۵11020 
(2007) 
طوتحدن|۳۱2 
(2007) ,دنه زنطعه 1 
طوتحدرن|۳۱2 
(2008) ,طهته زنطعه 1 
خالقی و مینایی (۱۳۹۴) 


ساعدی (۱۳۹۰) 


دیانت و همکاران (۱۳۹۵) 


۳۲۵110001 6 21. 
)2009( 


خسروی و همکاران (۱۳۹۲) 


کریسانی (۱۳۹۰) 


عبدالحسینی (۱۳۹۲) 


روش و الگوریتم گسترش 
پرسوجو 
باز خورد ربط / ر وکیو 


بازخورد شبه ربط / ر وکیو 


باز خورد شبه ربط / احتمالاتی 


باز خورد شبه ربط / احتمالاتی 


بازخورد شبه ربط/ تحلیل بافت محلی 
بازخورد شبه ربط / تحلیل بافت محلی 
با زخورد شبه ربط / تحلیل بافت محلی 
با زخورد شبه ربط / تحلیل بافت محلی 


ساختارهای دانش/ مستقل از پیکره 


ساختارهای دانش/ مستقل از پیکره 


مبتنی بر وب/ پایگاه‌های آنلاین دانش 


۳ 
مبتتی بر وب/ لا گ پرس وجو 


ترکیبی (ساختارهای دانش- مستقل از 
پیکره و بازخورد شبه ربط) 
ترکیبی (اسناد وب و ساختارهای دانش- 


مستقل از پیکره) 
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منبع دانشی 
اصطلاحات گسترش 
مجموعه قوانین 
مجموعه همشهری» 
مجموعه آزمون کلف 
همشهری ۱و ۰۲ 


مجموعه آزمون فایر 


مجموعه همشهری و اخبار 


یکی 
مجموعه همشهری 
مجموعه همشهری 


مجموعه همشهری 


مجموعه همشهری 


فارسی‌نت 


واژه‌نامه 


هستی‌شناسی مستخرج از 
ویکی‌پدیای فارسی 


موتور کاوش گ وگل 
وردنت انگلیسی 


موتور کاوش گوگل و 


فارس‌نت 


مجموعه 
آزمون 
قوانین 


همشهری و 


همشهری 


نسانی 
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بحث و نتیجه گیری 

زبان فارسی یکی از زبان‌های مهم تکلم در خاورمیانه و آسیای میانه است و انتظار می‌رود تحقیقات 
در حوزه بازیابی اطلاعات در زبان فارسی توسعه یابد. یکی از حوزه‌هایی که به وظایف بازیابی اطلاعات 
کمک می کند گسترش پرس وجو است. در پژوهش حاضر به مرور نظام‌مند کارهای انجام شده برای 
گسترش پرس‌وجو در زبان فارسی با تم رکز بر روش‌هاء منابع دانشی و مجموعه آزمون‌ها پرداخته شده 
است. 

در اين مقاله روش‌های گسترش پرس وجو از دید گاه منابع دانشی اصطلاحات گسترش دسته‌بندی 
شده است. زیرا منابع گسترش پرس وجو تضمین کننده اجرای روش‌ها و الگوریتم‌های گسترش پرس وجو 
هستند. مرور پژوهش‌ها ذشان داد ۴ اثر به گسترش پرس‌وجوی زبان فار سی پرداخته‌اند. این پژوهش‌ها در 
قالب چهار روش تقسیم شدند: روش مبتنی بر ربط (هشست پژوهش)؛ مبتنی بر ساختارهای دانش (دو 
پژوهش)؛ مبتنی بر اطلاعات وب (دو پژوهش)؛ و مبتنی بر منابع ت رکیبی (دو پژوهش). همه این پژوهش ها 
از نوع گسترش پرس‌وجوی خود کار هستند. دلیل اصلی محبوبیت روش‌های گسترش پرس‌وجوی خود کار 
این است که زمان و تلاش کمتری را از کاربران طلب می کنند. 

در اين مرور نشان داده شد که روش مبتنی بر ربط و به‌ویژه رویکرد بازخورد شبه ربط بیشتر از 
سایر روش‌ها برای گسترش پرس‌وجو در زبان فارسی مورد استفاده قرار گرفته‌اند همچنین سه تکنیک 
رو کیو» مدل احتمالاتی و تحلیل بافت محلی در گسترش پرس‌وجوی زبان فارسی اعمال شده است. در همه 
تحقیقاتی که با | ستفاده از رویکرد بازخورد شبه ربط انجام شده ا ست مجموعه آزمون | ستاندارد روزنامه 
همشهری به‌عنوان منبع دانشی اصطلاحات گسترش پرس وجو استفاده شده است. این در صورتی است که 
در تحقیقات انجام‌شده در زبان‌های دیگر مثل زبان انگلیسی اغلب از محتوای وب و جستجو در گ وگل 
برای تأمین بافت پرس وجوها و انتخاب | صطلاحات گسترش | ستفاده می شود. این امر ذشان می‌دهد نتایج 
وب و موتور کاوش گوگل در زبان فارسی هنوز مورد توجه و اعتماد پژوهشگران بازیابی اطلاعات قرار 
نگرفته است. 

در روش مبتنی بر ساختارهای دانش دو اثر با رویکرد مستقل از پیکره و با استفاده از هستی شناسی 
فارس‌نت و یکک واژه‌نامه فارسی انجام شده است. اما با رویکرد وابسته به پیکره» که اصطلاحات را از 
مجموعه‌هایی مانند خوشه‌بندی اصطلاحات و اصلاحنامه‌های خود کار مستخرج از متن انتخاب می کند 


پژوهشی در زبان فار سی انجام شده است. استفاده از هستی شناسی‌ها جرو متأخرترین روش‌های گسترش 


۶ پژوهشنامه کتابداری و اطلاع رسانی» دانشگاه فردوسی مشهد سال ٩‏ شماره ۱ بهار و تابستان ۱۳۹۸ 


پرس‌وجو است و اغلب به‌منظور استنتاج بافت برای پرس‌وجوهای مبهم مورد استفاده قرار می گیرد. مفاهیم 
موجود در هستی شنا سی‌ها را می‌توان برای رفع ابهام معنایی کلمه و نیز برای گسترش پرس وجو به کار برد. 
گسترش پرس‌وجوی خود کار با استفاده از دانش معنایی پیشرفت سریعی داشته است و خوش‌بینی زیادی 
در مورد ظرفیت‌های آن برای موفقیت در آینده وجود دارد. در پژوهش‌های زبان‌های مهم دنیا این رویکرد 
گسترش پرس وجوی خود کار بهبود چشمگیری در عملکرد بازیابی داشته است و تمایل به استفاده از این 
روش برای گسترش پرس وجو بیشتر از سایر روش‌ها است (2007 .21 4 ,13008221). اما در زبان فارسی 
به‌دلیل نبود هستی‌شناسی مناسب استفاده از این روش مغفول مانده است. 

در روش استفاده از اطلاعات مبتنی بر وب لازم است بیشتر به اسناد وب پایگاه‌های آنلاین دانش 
(مانند ویکیپدیا) و لاگ پرس‌وجوها در زبان فارسی توجه شود. ویکی‌پدیا به‌عنوان یک منبع محبوب 
برای پژوهشگران در تحقیقات گسترش پرس‌وجوی زبان‌های دیگر مانند زبان انگلیسی به‌شمار می‌رود؛ 
چرا که بز رگک‌ترین داثره‌المعارف تحت وب است که مقالات آن به‌طور مرتب به‌روز می‌شوند و مقالات 
حوزه‌های جدید به آن افزوده می‌شود و با دارا بودن ویژگی‌های ساختاری و روابط معنایی منبع مفیدی 
برای پو شش نقاط ضعف ساختار و معنا است. در پژوهش‌های زبان فار سی توجه کافی به ویکی‌پدیا برای 
وظایف بازیابی اطلاعات و گسترش پرس‌وجو صورت نپذیرفته است و ابزار و پایگاهی مستخرج از 
ویکی‌پدیای فارسی برای امور مربوط به بازیابی اطلاعات تولید نشده است. استفاده از لااگ‌های پرسوجو 
به زبان فار سی نیز می‌تواند اطلاعات ارز شمندی از چگونگی رفتار کاربران در | صلاح و تغییر پرس‌وجوها 
را به‌منظور کمک به گسترش پرس وجوها نمایان سازد. 

مرور پژوهش‌های گسترش پرس‌وجو در زبان فارسی نشان می‌دهد که اغلب آنها در حوزه مقالات 
خبری انجام شده‌اند. یکی از دلایل این امر این است که متون خبری با مقالات کوتاه و موضوع‌های ساده و 
مشخص نسبت به سایر حوزه‌هاه مورد اقبال پژوهشگران حوزه بازیایی اطلاعات هستند و در حوزه گسترش 
پرس‌وجو در زبان فارسی نیز این‌چنین است. همچنین از مجموعه آزمون همشهری در نیمی از پژوهش‌ها 
به‌عنوان منبع دانشی اصطلاحات گسترش و نیز مجموعه آزمون استفاده شده است. یکی دیگر از دلایل 
پرداختن به گسترش پرس‌وجو در حوزه مقالات خبری. می‌تواند وجود مجموعه آزمون | ستاندارد روزنامه 
همشهری در زبان فارسی باشد و نبود مجموعه آزمون‌های استاندارد در متون حوزه‌های دیگر مثل متون 


علمی» پژوهش‌ها را به‌سمت متون خبری سوق داده است. 
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مرور نظام‌مند پژوهش‌ها نشان می‌دهد گسترش پرس‌وجوها در زبان فارسی به صورت کلیدواژه‌ای 
انجام شده‌اند و استفاده از گسترش پرس وجو به صورت غیر کلیدواژه‌ای مانند گسترش عبارتی یا استفاده از 
اصطلاحات عمومی در وب مغفول مانده است. 

در مجموع مرور نظام‌مند پژوهش‌ها نشان داد علاوه بر کمبود روش‌ها و تکنیک‌های به کار رفته 
در زبان فارسیء کمبود منابع دانشی ا صطلاحات گسترش هم آشکار است. تعداد اند ک آثار در گسترش 
پرس‌وجوی زبان فارسی با روش‌ها و رویکردهای محدود باعث شده که نتوان قضاوت کاملی درباره 
عملکرد و میزان بهبود بازیابی اطلاعات توسط آنها انجام داد. تحقیقات این حوزه نیازمند توسعه کمی است 
تا بتوان با تجزیه و تحلیل و ارزیابی روش‌های مختلف. درک دقیق‌تری از عملکرد آنها در زبان فارسی 
به‌دست آورده و از آن‌ها براساس نیاز در پایگاه‌های مختلف استفاده شود. همچنین به‌منظور مقایسه 
پژوهش‌های این حوزه لازم است از مجموعه آزمون استاندارد و معتبر با انواع معیارهای سنجش ربط برای 
بهبود عملکرد الگوریتم‌ها استفاده شود. 

با توجه به شکاف‌های پژوهش‌های حوزه گسترش پرس وجو در زبان فارسی. پیشنهاداتی برای 
روش‌هاء منابع دانشی اصسطلاحات گسترش و مجموعه آزمون‌ها جهت انجام پژوهش‌های آینده ارائه 
می مود 

بیش از نیمی از پژوهش‌های گسترش پرس‌وجو از روش مبتنی بر ربط | ستفاده کردند» تقریاً اکثر 
الگوریتم‌های مورد استفاده در روش مبتنی بر ربط در زبان فارسی پیاده‌سازی شده‌اند. اما به پیاده‌سازی 
روش‌های دیگر به این اندازه توجه ذشده است و بهتر است پیاده سازی آنها نیز در زبان فارسی انجام شود؛ 
به‌ویژه» رویکردهای وابسته به پیکره در روش مبتنی بر ساختارهای دانش با استفاده از خوشهبندی 
اصطلاحات و اصلاحنامه‌های خود کار مستخرج از متن؛ استفاده از اسناد وب؛ استفاده از ویژگی‌های 
ساختاری و معنایی ویکی‌پدیا و پایگاه‌های مستخرج از آن؛ تحلیل لاگ‌های کاربران در نظام‌های بازیابی 
اطلا عات؛ موتور های کاوش مختلف؛ و روش های ترکیبی که بیش از یک روش را برای گسترش 
پرس وجو در نظر می گیرند. 

مرور پژوهش‌ها نشان می‌دهد استفاده از روابط ساختاری و معنایی هستی شناسی‌ها و ویکی‌پدیای 
فارسی چندان در پژوهش‌ها ظاهر نشده است. یکی از دلایل این امر نبود منابع مناسب برای تأمین اصلاحات 
گسترش پرس وجو است. فارس‌نت یک هستی شناسی عمومی است و تعداد واژگان آن پااسخ گوی انجام 


مطالعات باز یایی اطلاعات در حوزه‌های مختلف زبان فارسی نست. لازم اتتا برای تولید هستی‌شناسی‌های 
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معتبر در زبان فارسی برای امور بازیابی اطلاعات اقدام شود. همچنین تولید پایگاه‌های معتبر از ویکی‌پدیای 
فارسی می‌تواند منابع دانشی مفیدی را برای اعمال بازیابی اطلاعات به‌ویژه گسترش پرس‌وجو فراهم آورد. 

بیش از نیمی از پژوهش‌های گسترش پرس‌وجو از روش مبتنی بر ربط استفاده نمودند و منبع تأمین 
اصطلاحات گسترش در این پژوهش‌ها مجموعه آزمون روزنامه همشهری و حوزه آنها متون خبری بوده 
است. لازم است مجموعه آزمون‌هایی استاندارد و معتبر در حوزه‌های دیگر به‌ویژه حوزه متون علمی تولید 


شود و منبع تأمین اصلاحات تحقیقات حوزه گسترش پرس‌وجو قرار گيرند. 
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0 601۱۴۵۲۵۷۱6۵ )۵ ۸۷ ۱۱۱۵۳۱۵۱۵0۵ منت 2711 0۴۱۱6 ۳۳۵۵۵68 ۲ ۷۲۵۲۱۹۰00۰ 
۰ ,(528-529 6۵۵۰ ۲۵۲۵۷۲۵ ۱۱/۵۳۱۱۵0۵۲ ۲ 2۷۵۵۵0۱۵ ۵۵ ۲۲۵5۵۵۲61۲ 

۲ م6۵ مامامتوم‌صمی طفزام‌ص‌صهزونه۲ 2 عمتصتا 2014(۰) به رتتملقطه عک ر.ظ .۲ رتصه‌طوه]۲ 
«(50)2 ۷۵۱۵۵۵۱۱۵۱ ک وووهع۳۳0 ۱۵۱۸۸۵۸۵۵۸ ۲۵016۷۵1۰ جمتاحص 0ص مهمتاء‌صها- 8و0 
.384-1 

مهمو عصتاطمنه۱۵-۳ ما ومتان ۸ 2016(۰) ۳۰ رمهتط)‌تامرن) کی ری رتم02عطف۴ ر.ظ رتطهکزتهک 
478-۰ ,(2)3د ,۱۷/۵۱۱۵8۵۱۵ > وواویعع۳۳0 ۱۱/۵۳۱۱۵۸۵۸ ۰ راتتحاتصه احعصنهمل عصلفها 

۱۵061٩. ۷‏ ممهناعصع1 0مو۵1۵۷2۵6۵-02 .(افتاعتاظ ,02017 ۰ ۷۷۰ رام عک .۷ ,2۷۲۵۵0 ] 
٩۱0۰ 2, 00۰ 260-267(, ۰‏ ,51 ۵۱۰ ۷) ۳۵۲۱۵ 50 

۲ 4مطامص عصتام‌صهوع 2800ه-تماونااه ۸ ۲017(۰ ,2008) . بصقاظ ع ر.ظ ۷۷۰ ما0 و .ک بععر] 
۷ ۱۱۵۲۱۱۵۱۱۵۱۱۵ ۵۱۳۵۵ 5 3 ۱ ۵0 ۲۳۳۵۵۵۵۵ ,۲۵6002601 ۵000-1۲6168۷29۵۵و۵ 
-235 .00) م۲۵۱۲ ۱0۳۱۱۵۵0 ۱ 90۵ نت ۵3۵۵ 0۷۲ 606۲۵۷۱6۵ ٩071‏ 
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۰ پژوهشنامه کتابداری و اطلاع رسانی» دانشگاه فردوسی مشهد سال ٩‏ شماره ۱ بهار و تابستان ۱۳۹۸ 


عمط عصتاه۲:۵۵۲ 2017(۰) ده رتاقصحصص ک ۳ ۰ مطه‌کام1 لا ۷ بتلهعکع]۱۷ بت بتامان بب بت1۷]6 
معط عععتا اقا متمعوم ۵۶ سم۲۵7 متامصصماوود ظ ها 0ماجتمصهمع-صمصصناط ۵۶ 1۵0 تعطامظ 
505-۰ ,(53)2 ,۱۷/۵۱۱۵8۵۱۵ > وواوهع۴۳۵06 ۱۱۵۳۸۹۱۵۸۵۵۱۷۱ 601۵۱6۰ 1۱0/0۵60۲2 ۱۷ 

۴ ۲6۷1۵6۷ مستاحتماناً متتقصماوه ه عصتامنل‌جهه ما متناع ۸ 2010(۰) یک رحهطاهداهو عک وت متاما0 
10-۰ ,5۳00/6 .۲۵5۵20 فصماو 5 1۳01۳9۵/01 

۶ وتطاعممتاهام: معط عصن‌صه)یمونا وتا ر2007) بک رطمعصت۷۷11 عک بیط رتملتوظ بلط مصقطط 
۳۵۵ 501 0۴1۱۵ ۳۳۵۵۵۵6 ۲۱ ۰طعجع1 بچنمتان طمتقعد ما وازم50۵6۵1]1 ۵660 1۳101۳9۵1109 
0 1۲ 016۷۵10۴۵۱۱۱۵۲۱۴ ۵۱۱0 65۵6۲61 01 6016۲۵۷۱۵۵ ۹1۲ ۸۷ 116۲۱۱۵۵0۳۵ 
۰ (709-710 0۴0۰) ۲۵۱۲۱۵۷۵۱ 

6 0۱۲۱۱۵ .کعا م5626 ]۵ عدتاطعه ۳ ۴۵1۵۷۵۵6۵ 1976(۰) ٩۰‏ یک روع108 عک ر.ظ ٩.‏ رط۳۴۵06160 
129-۰ ,(3) 2 ,56121166 ۱۵۲۱۱۵۸۵۷ ۵۴ 506615 ۸۱۱۱۵۲۱6۵ 

۲۵۷۵ 5/۸۲۲ 176 ,۲6۵۱۱۵۷۵۱ طمتاقصویرمض صا 1۵60020 معصج7ع[م۳۴ ,(1971) .۲ .۲ ,۵6690 
313-۰ م2۲06 0600۱6۴ 0۵۵۱۱۱۵/۱6 11 620۳0611111115 91۵171۰ت(ک 

۲ مفصتداعه۱۵۳ منن ۵۶ اصمصرووموو۸ 201۱2(۰) ۳۰ رصهتطم‌صتامرن0 ع بط رتتتطعوط بر 20001 
۷ ۵۴ 09۵۳۱۵ ۲۱/۵۱۱۵۵۳۵۵ ۲۵1۵6۷۵1۰ صمتاحصص0 1ص تنه؟ صز 0مصامجظ منطهع‌۳۵ 
9-۰ ,(6)1 ,(/561) ۱۷۵۱۵86۱۵۱۲ 0۵ 67۵۱۱6۵ 

متتقصصماتاه 10۲ اممصظ ممقوو ۷۵۵۵۲ ۸ .(1975) .9 ) بعط۷2 عک بط ,۷۷۵88۵ وت م5210 
613-0۰ ,(18)11 ,)۸ ۱۵ ]0 00۵۳۱۸۱۵۵۵۵۵00 1۳0602۰ 

بل6ظ ‏ ... و9 بلعل16106ع2ظ ره رصهتصصه۲ .لا روهمعصها بیط رتعمل۳۲2 ریم رتطاهععا ۷۲ رت2تعصعطه 
۵۳۲۵۲ صقاوهم فطا راعصونه؟ که صمصم‌مامع 0‏ متاقصصمانته. تم ,(2010) ,۷ .5 
29(۰ ۵۱۰ ۲۷) ۱۱4 ۵۱۱۵۵ 60۵/۵۲۵۵۵ ۲۷۷۵۳۵۵۷۵۸ آهراهاع 51 ]۵ وو0 ۳۲۵6۵ 

6 :۷۵0 عطا عمتط‌نمعی 2001(۰) ۲۰ ,921200710 ع ورگ .ظ ۷۲ رطععصع[ ریا بطه۵18 ۷۷۲ بظ۸ یلصم 
۵ 56۵۱۱66 ۱۱/۵۱۱۵۱۱۵۱ ۵۴ 06 ۹۱۱۵۱۵۵ ۱۱۵ ]0 0۵۵ .ک۵126تاون تتعطا همه مذاطانام 
.226-4 ,(52)3 ,جو661:71010 7 

۵ 0 ۲۵۱۳۱۵۷۵ ۱۱۵۱۱۵۵۲ ۵ 000( ۵ ۲۱۵۵۵۵ 2005(۰) .1 رحطتقطاهه۵0[1 ۱۷۷ 
۰ ۲۲۵0۵ م۲ .9۵۲۱۵۶ 771606601 

۲۵12۶ 0۲ 0000 ۵۱۱ 061261070 0۴۵16 ۱۷۷۲۲ ۵1۱/۱۵۱6۵۱۵ ۵۱۵۲ 2013(۰) ۰ رعصهط2 
۰ هصهنلط1 .۳۵۱۳۱۵۷۵۱ 


